1
Sự Thay Đổi Mô Hình: Từ Các Mô Hình Đặc Trưng Cho Nhiệm Vụ Đến Các Mô Hình Ngôn Ngữ Lớn (LLMs)
PolyU COMP5511Lecture 10
00:00

Sự Tiến Hóa của Xử Lý Ngôn Ngữ Tự Nhiên: Từ AI Phân Mảnh Đến Các Mô Hình Cơ Bản

Định Nghĩa

  • AI Phân Mảnh: Một thời kỳ được đặc trưng bởi các kiến trúc thần kinh rời rạc, chuyên biệt, được thiết kế riêng cho từng nhiệm vụ như gán nhãn chuỗi hoặc phân loại.
  • Mô Hình Cơ Bản: Một kiến trúc transformer thống nhất, đơn thể, coi mọi vấn đề ngôn ngữ là một chuỗi văn bản đầu vào - đầu ra sinh tạo $x \rightarrow y$.

Các Khái Niệm Chính

  • Tập Trung Kiến Trúc: Trước đây, xử lý ngôn ngữ tự nhiên (NLP) đòi hỏi các quy trình tùy chỉnh (Bi-LSTM cho NER, CNN cho cảm xúc). Các mô hình ngôn ngữ lớn (LLM) thu gọn những khu vực tách biệt này thành một nền tảng duy nhất, nơi cùng một trọng số được sử dụng cho mọi nhiệm vụ.
  • Giao Diện Tổng Thể: Các mô hình ngôn ngữ lớn (LLM) thay thế các đầu ra chuyên biệt (ví dụ: Softmax 3 lớp) bằng một giao diện ngôn ngữ tự nhiên. Đầu vào và đầu ra luôn là chuỗi ký tự, cho phép mô hình hiểu được ý định thay vì định dạng.
  • Chuyển Giao Tri Thức: Các mô hình truyền thống là "trang giấy trắng" cho mỗi nhiệm vụ. Các mô hình ngôn ngữ lớn (LLM) ưu tiên Tổng Quát Hóa Trước Tiên, trong đó các nhiệm vụ cụ thể chỉ là ứng dụng của một biểu diễn nội bộ vững chắc về ngôn ngữ đã tồn tại trước đó.

Bối Cảnh Lịch Sử

  • Trước năm 2018: Việc cô lập nhiệm vụ đòi hỏi phải huấn luyện các mô hình khác nhau với các hàm tổn thất $\mathcal{L}_{task}$ khác nhau.
  • Thời Đại Hiện Đại: Triết lý "Văn bản đến Văn bản" cho phép một mô hình duy nhất (ví dụ: Llama-3) chuyển đổi nhiệm vụ thông qua việc gợi ý không có mẫu (zero-shot) hoặc ít mẫu (few-shot).
AI Truyền Thống$f_{NER}(x) \rightarrow y_{nhãn}$$f_{Sent}(x) \rightarrow y_{lớp}$$f_{Trans}(x) \rightarrow y_{chuỗi}$Thời Đại Mô Hình Cơ BảnGợi Ý + $x$LLM$f(p, x) \rightarrow y_{chuỗi}$Chuỗi $y$
So Sánh Thực Thi Bằng Python